iT邦幫忙

2025 iThome 鐵人賽

DAY 8
0
佛心分享-IT 人自學之術

LLM入門學習系列 第 8

D7 序列模型回顧

  • 分享至 

  • xImage
  •  

序列模型回顧:RNN、LSTM、GRU 的缺點與演進

在處理文字、語音等序列資料時,模型需要具備「記憶」能力,這就是序列模型的核心。從最基礎的 RNN,到為了解決其問題而誕生的 LSTM 和 GRU,再到徹底改變格局的 Transformer,這條演進之路清晰地反映了技術如何一步步解決瓶頸。

1. 循環神經網路 (RNN)

RNN是所有序列模型之父。它透過「隱藏狀態 (hidden state)」將前一時刻的資訊傳遞給下一時刻,賦予了模型記憶能力。

RNN有兩個主要缺點:
1.長程依賴問題:這是RNN最大的瓶頸。在訓練過程中,由於權重不斷相乘,會導致梯度消失(數值趨近於零)或梯度爆炸(數值異常大),使得模型很難學習到序列中相隔較遠的關係。

2.序列運算速度慢:因為每一時刻的計算都依賴於前一時刻的結果,模型只能逐步處理,無法進行並行運算。

2. 長短期記憶網路 (LSTM)

而為了解決RNN的梯度消失和長程依賴問題,LSTM 應運而生。它在RNN的基礎上引入了精密的記憶單元 (Cell State) 與三個「閘門 (Gate)」,來控制資訊的流動。
而作為核心原理的三個門分別為:

  • 遺忘門:決定要從舊記憶中「忘記」哪些資訊。
  • 輸入門:決定要從當前輸入中「新增」哪些資訊到記憶單元。
  • 輸出門:決定從記憶單元中「輸出」什麼資訊。

透過這種機制,LSTM 能夠有效地保留重要的長期資訊,並過濾掉無關的細節,就像一個有選擇性記憶的大腦。他有效的解決了梯度消失問題,能夠捕捉並保留長距離的依賴關係,並且訓練過程相對穩定。

然而它也並非沒有缺點。結由於其包含了多個門和記憶單元的複雜結構,模型的參數數量龐大,訓練成本高昂。此外,雖然解決了梯度問題,但仍然是一種序列處理方式,他依舊無法進行並行運算。

3. 門控循環單元 (GRU)

GRU 是 LSTM 的輕量化版本。它在2014年被提出,旨在用更少的參數達到與LSTM相似的性能。其核心原理在於,
GRU將LSTM的遺忘門和輸入門合併成一個更新門(Update Gate)。並且捨棄了獨立的記憶單元,直接在隱藏狀態中進行更新。這種簡化讓GRU的結構更加緊湊,但仍保留了對資訊流的控制能力。

優點:

  • 結構簡單:參數更少,訓練速度比 LSTM 快。
  • 性能相近:在許多任務上,GRU 的表現與 LSTM 不相上下,甚至更好。
  • 適合數據量較小或對訓練速度有要求的場景。
    缺點:
  • 在某些極度複雜或需要精確記憶的任務中,LSTM 可能表現更佳。
  • 仍無法擺脫序列運算的限制。

演進方向:從「序列」到「並行」

儘管LSTM和GRU成功解決了長程依賴問題,但它們無法並行運算的根本性限制,使得處理大規模語料時效率極低。
因此,研究者們發展了Transformer模型。它徹底跳脫了序列處理的框架,並透過自注意力機制(Self-Attention),讓模型能夠一次性處理整個序列中的所有詞,並判斷它們之間的關係。
這種並行處理的能力,讓Transformer成為了BERT、GPT等大型語言模型的基礎,從而開啟了NLP領域的新時代。


上一篇
Day 6:自然語言處理(NLP, Natural Language Processing)
下一篇
Day 8:Attention 概念
系列文
LLM入門學習12
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言